《ESL》学习笔记

2023-07-18 20:48| 来源: 网络整理| 查看: 265

文章目录变量的类型定量变量Y定性变量G分类举例编码方式两种最简单的估计模型线性模型（使用最小二乘估计）线性模型最小二乘的解聚类模型（使用最近邻估计）k-NN模型（k近邻）模型含义两种模型的差异模型的类型统计决策论期望预测误差偏差-方差分解高维情况下的局部方法高维带来的问题结构化回归模型

变量的类型定量变量Y 举例：身高，体重编码方式：标量定性变量G 分类有序定性变量无序定性变量举例有序定性变量：物体体积定性描述（小，中，大）；无序定性变量：物体的颜色（红，绿，蓝）编码方式二类定性变量：0-1编码或者(-1)-1编码多类定性变量：独热编码（one-hot）——k类可以用一组k维向量表示，向量中只有某一维的值为1，其余为0，比如 ( 0 , 0 , 1 ) (0,0,1) (0,0,1)指示属性“大”， ( 0 , 1 , 0 ) (0,1,0) (0,1,0)指示属性“中”， ( 1 , 0 , 0 ) (1,0,0) (1,0,0)指示属性“小”。两种最简单的估计模型线性模型（使用最小二乘估计）线性模型

假设输入向量为 x = ( x 1 ; x 2 ; . . . ; x n ) x=(x_1;x_2;...;x_n) x=(x1;x2;...;xn)，设 x ^ = ( x ; 1 ) \hat x=(x;1) x^=(x;1),则预测的输出表示为： y ^ = x ^ T β ^ \hat y=\hat x^T\hat \beta y^=x^Tβ^ β ^ \hat \beta β^为待估计参数。

最小二乘的解

β ^ = ( X T X ) − 1 X T y ⃗ \hat \beta=(X^TX)^{-1}X^T\vec y β^=(XTX)−1XTy 问题：如何使用矩阵求导得到最小二乘的解？

聚类模型（使用最近邻估计） k-NN模型（k近邻）

y ^ = 1 k ∑ x i ∈ N k ( x ) y i \hat y=\frac{1}{k}\sum_{x_i\in N_k(x)}y_i y^=k1xi∈Nk(x)∑yi 当k=1时即为最近邻模型

模型含义

对应了特征空间的划分

当k=1时，特征空间被划分为若干子空间，每个子空间包含且仅包含一个训练样本点，子空间内所有点的输出标记和训练样本点保持一致。当k>1时，特征空间的划分变得复杂，但还是运用邻域的思想。两种模型的差异最小二乘模型比较稳定，但预测不准（方差小，偏差大）最近邻模型预测较准，但不稳定，易受训练集噪声干扰（方差大，偏差小）模型的类型决策式：用决策函数 y = f ( x ) y=f(x) y=f(x)表征，上面介绍的两种模型均为决策式模型。生成式：用条件概率 f ( y ∣ x ) f(y|x) f(y∣x)表征，可以描述输入输出间更为复杂的依赖关系。统计决策论期望预测误差

设 L ( x ) L(x) L(x)表示损失函数，则期望预测误差表示为： E P E ( f ) = E T [ L ( y − f ( x ) ) ] EPE(f)=E_T[L(y-f(x))] EPE(f)=ET[L(y−f(x))] 而 E P E ( f ) EPE(f) EPE(f)是选择决策函数 f f f的重要判断依据

偏差-方差分解

当损失函数为平方损失函数时，预测问题为回归问题时， E P E ( f ) EPE(f) EPE(f)可以分解为偏差与方差之和。此时， E P E ( f ) EPE(f) EPE(f)即 M S E ( f ) MSE(f) MSE(f)（均分误差），并有 M S E ( x 0 ) = E T [ f ( x 0 ) − y ^ 0 ] 2 = E T [ y ^ 0 − E T ( y ^ 0 ) ] 2 + E T [ E T ( y ^ 0 ) − f ( x 0 ) ] 2 MSE(x_0)=E_T[f(x_0)-\hat y_0]^2=E_T[\hat y_0-E_T(\hat y_0)]^2+E_T[E_T(\hat y_0)-f(x_0)]^2 MSE(x0)=ET[f(x0)−y^0]2=ET[y^0−ET(y^0)]2+ET[ET(y^0)−f(x0)]2 其中 f ( x ) f(x) f(x)表示真实函数，分解的两项中前者为方差，后者为偏差。

高维情况下的局部方法高维带来的问题弱化了“邻域”的概念，使得邻域在单一维度下的表现不像邻域。（需要覆盖单一维度下足够大的跨度）使得靠近样本空间边界的样本点的比例增多容易造成样本空间的稀疏性使均分误差变大1 结构化回归模型

在 E P E ( f ) EPE(f) EPE(f)中引入表征结构复杂度的罚项，实际上是将对解空间模糊性的克服转换为对约束条件（罚项）的选择

均方误差可以分解为偏差和方差之和，在不同的情况下，起支配作用的对象不同，比如当真实函数用到输入数据的多维情况时，偏差容易起到支配作用；而当真实函数仅仅用到输入数据的少量维度时，方容易起到支配作用。 ↩︎

【本文地址】

公司简介

联系我们